自动驾驶的运动预测是一项艰巨的任务,因为复杂的驾驶场景导致静态和动态输入的异质组合。这是一个开放的问题,如何最好地表示和融合有关道路几何,车道连接,时变的交通信号状态以及动态代理的历史及其相互作用的历史。为了模拟这一不同的输入功能集,许多提出的方法旨在设计具有多种模态模块的同样复杂系统。这导致难以按严格的方式进行扩展,扩展或调整的系统以进行质量和效率。在本文中,我们介绍了Wayformer,这是一个基于注意力的运动架构,用于运动预测,简单而均匀。 Wayformer提供了一个紧凑的模型描述,该描述由基于注意力的场景编码器和解码器组成。在场景编码器中,我们研究了输入方式的早期,晚和等级融合的选择。对于每种融合类型,我们通过分解的注意力或潜在的查询关注来探索策略来折衷效率和质量。我们表明,尽管早期融合的结构简单,但不仅是情感不可知论,而且还取得了最先进的结果。
translated by 谷歌翻译
在许多实际应用(例如运动预测和3D感知)中,旋转模棱两可是理想的属性,它可以提供样本效率,更好的概括和对输入扰动的鲁棒性等好处。向量神经元(VN)是一个最近开发的框架,它通过将一维标量神经元扩展到三维“向量神经元”,提供一种简单而有效的方法来推导标准机器学习操作的旋转量表类似物。我们介绍了一种新颖的“ VN转换器”体系结构,以解决当前VN模型的几个缺点。我们的贡献是:$(i)$,我们得出了一种旋转等级的注意机制,这消除了原始矢量神经元模型所需的重型功能预处理的需求; $(ii)$我们扩展了VN框架以支持非空间属性,将这些模型的适用性扩展到现实世界数据集; $(iii)$,我们得出了一种旋转等级机制,用于多尺度减少点云的分辨率,从而大大加快了推理和训练; $(iv)$我们表明,可以使用小额折衷($ \ epsilon $ - approximate povrivariance)来获得对加速硬件的数值稳定性和培训鲁棒性的巨大改进,并且我们绑定了我们模型中对等效性侵犯的繁殖。最后,我们将VN转换器应用于3D形状分类和运动预测,并具有令人信服的结果。
translated by 谷歌翻译
预测道路用户的未来行为是自主驾驶中最具挑战性和最重要的问题之一。应用深度学习对此问题需要以丰富的感知信号和地图信息的形式融合异构世界状态,并在可能的期货上推断出高度多模态分布。在本文中,我们呈现MultiPath ++,这是一个未来的预测模型,实现了在流行的基准上实现最先进的性能。 MultiPath ++通过重新访问许多设计选择来改善多径架构。第一关键设计差异是偏离基于图像的基于输入世界状态的偏离,有利于异构场景元素的稀疏编码:多径++消耗紧凑且有效的折线,直接描述道路特征和原始代理状态信息(例如,位置,速度,加速)。我们提出了一种背景感知这些元素的融合,并开发可重用的多上下文选通融合组件。其次,我们重新考虑了预定义,静态锚点的选择,并开发了一种学习模型端到端的潜在锚嵌入的方法。最后,我们在其他ML域中探索合奏和输出聚合技术 - 常见的常见域 - 并为我们的概率多模式输出表示找到有效的变体。我们对这些设计选择进行了广泛的消融,并表明我们所提出的模型在协会运动预测竞争和Waymo开放数据集运动预测挑战上实现了最先进的性能。
translated by 谷歌翻译